查看原文
其他

生物医学大数据解读和分析——构建生物网络案例实践(一)

2017-12-20 星之翼 Freescience联盟

第一章节我们讲了如何利用GEO数据库等工具进行差异分子,还原一篇低成本的3.6分的文章(不知道,点这里:零基础生物医学大数据挖掘系列(一)开篇)。第二章节将继续对已发表的文章来进行数据分析还原,将文章中用到的分析过程和操作,一步一步还原呈现给大家


本期挑选的一篇文章是” Identification of breast cancer candidate genes using geneco-expression and protein-protein interaction information ”是2016年5月安徽大学Yan Chen团队发表在ONCOTARGET。(影响因子为6.359 ,PMID: 27150055)


文章的基本思路是通过构建乳腺癌的共表达网络和蛋白互作网络来寻找到7个潜在的重要基因,然后根据一个在线的生存分析工具评估7个基因整体的临床意义。


此文是零成本发表高分文章的经典文章,文中没有做任何实验,花任何经费,也没有开发复杂的分析算法,仅仅通过组合各种现成的工具和使用公共数据库数据来发表了一篇不错的文章。当然个人也对此文能发表在大于5分的杂志也比较意外,建议补充简单的实验来增加说服力。总之,掌握和学会大数据分析对于一个无文章、无经费、无课题的科研小白来说是一个不错的方向,只要结合一个好的idea也能发表高分文章,实现逆袭。

那么我们就开始数据分析了,首先了解下分析流程,解决几个核心问题。





1.  蛋白与蛋白互作关系是什么,怎么构建蛋白与蛋白互作网络?

2.  TCGA数据库中据乳腺癌的基因表达数据怎么获得?
3.  共表达网络是什么,根据2中的基因表达数据怎么构建共表达网络?
4.  seed gene是什么,怎么获得?
5.  如何构建子网络,寻找到新颖的潜在基因?
6.  如何通过在线的生存工具对多个基因进行生存分析?


本期围绕第一个问题简单介绍下什么是蛋白与蛋白互作?为什么要构建蛋白与蛋白互作网络?


简单来说就A蛋白与B蛋白之间是否会发生结合的信息,生命体内蛋白质是细胞活性及功能的最终执行者,而各个蛋白不是独立地行使功能,而是互相交互作用共同导致某个细胞活动或生命现象。蛋白-蛋白互作网络正是把各种蛋白关系串连起来,构成一个整体、系统的网络。蛋白-蛋白互作网络对了解细胞内调控关系及其分子信号转导起着重要作用,是研究重大疾病机制、疾病治疗、疾病预防和新药研发的理论基础


这里简单介绍下,蛋白-蛋白互作是通过哪些实验获得的,即如何证明A蛋白与B蛋白互相作用的?





1.酵母双杂交系统



其原理是当靶蛋白(A蛋白)和诱饵蛋白(B蛋白)特异结合后,诱饵蛋白(B蛋白)结合于报道基因的启动子,启动报道基因在酵母细胞内的表达,如果检测到报道基因的表达产物,则说明两者之间有相互作用,反之则两者之间没有相互作用。


2.噬茵体展示技术



在编码噬菌体外壳蛋白基因上连接一单克隆抗体的DNA序列,当噬菌体生长时,表面就表达出相应的单抗(A蛋白),再将噬菌体过柱,柱上若含目的蛋白(B蛋白),就会与相应抗体(A蛋白)特异性结合,这被称为噬菌体展示技术。


3.等离子共振技术



它的原理是利用一种纳米级的薄膜吸附上“诱饵蛋白(B蛋白)”,当待测蛋白(A蛋白)与诱饵蛋白(B蛋白)结合后,薄膜的共振性质会发生改变,通过检测便可知这两种蛋白的结合情况。


4.荧光能量转移技术



通过荧光显微镜技术可定量获取有关生物活体内蛋白质、脂类、DNA 和RNA 的时空信息。


5.抗体与蛋白质芯片技术



通过微型化,集成化,高通量化的抗体芯片来检测蛋白结合情况。


6.免疫共沉淀技术


基本原理是在细胞裂解液中加入兴趣蛋白的抗体(抗A蛋白),孵育后再加入与抗体(抗A蛋白)特异结合于Pansobin珠上的金黄色葡萄球菌蛋白A(SPA),若细胞中有正与兴趣蛋白(A蛋白)结合的目的蛋白(B蛋白),就可以形成这样一种复合物:“目的蛋白(B蛋白)—兴趣蛋白(A蛋白)—抗兴趣蛋白抗体(抗A蛋白)—SPA|Pansobin”,因为SPA|Pansobin比较大,这样复合物在离心时就被分离出来。经变性聚丙烯酰胺凝胶电泳,复合物四组分又被分开。然后经Western blotting法,用抗体(抗B蛋白)检测目的蛋白(B蛋白)是什么,是否为预测蛋白。这种方法得到的目的蛋白(B蛋白)是在细胞内天然与兴趣蛋白(A蛋白)结合的,符合体内实际情况,得到的蛋白可信度高,是蛋白质-蛋白互作检测的金标准。但这种方法有两个缺陷:一是两种蛋白质的结合可能不是直接结合,而可能有第三者(C抗体)在中间起桥梁作用;二是必须在实验前预测目的蛋白是什么,以选择最后检测的抗体,所以,若预测不正确,实验就得不到结果。


7.GST pull-down技术


原理是将GST融合蛋白(A蛋白)作为探针固化到凝胶柱上,与溶液中的目的蛋白(B蛋白)结合。可以用来确定融合(A蛋白)蛋白与未知或靶蛋白(B蛋白)间的新的相互作用,证实探针蛋白(A蛋白)与已知蛋白质(B蛋白)间可疑的相互作用。但这种方法可能会出现假阳,因为结合是由于电荷的吸附作用,而不是真正的相互作用。


蛋白与蛋白互作数据都是通过以上高通量的亲和实验得到的,而不是仅仅通过单纯的生物信息学预测。当然这些互作信息也存在局限性,例如互作关系在Hela细胞中得到验证,但并不一定适用其他细胞系或某种生理现象。虽然我们还是需要通过实验来进一步验证,但至少系统地、全面地为我们指导实验方向提供精准的预测和实验证据。


本期就到这里了,相信大家对蛋白-蛋白互作有了一定的了解,下一期将演示如何通过一些工具寻找某基因(蛋白)直接互作的蛋白(或基因名)。



长按以上二维码留言“生信”进生信微信交流群

安卓手机用户需先保存二维码到手机再扫描


生信大数据版主介绍:赵忻艺,将大数据应用于医学科研,主要包括临床医学数据的挖掘、收集、整理和利用(标准化和科学化的数据库),医学分子大数据的整理、利用及研究(基因、蛋白及代谢)。特别针对肿瘤个体化的基因测序和数据快速处理,寻找个体化的分子标志物、药物靶标和治疗方案。目前,已建立浙大大数据挖掘团队,旨在降低研究者学习大数据的门槛,推动大数据共享与研究协作,发表更高质量的研究成果,为科研决策提供精准的预测和实验证据。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存